• 2021 - 2022
  • Traitement Automatique des Langues

Objectifs

La BàO 2 est destinée à automatiser l'étiquetage morpho-syntaxique du corpus.

Principe général

  • Etape 1 : segmentation

  • Etape 2 : étiquetage morpho-syntaxique

  • Dans un premier temps, nous allons travailler sur un seul fichier pour tester la fiabilité et l'éfficacité du script.

  • Dans un second temps, nous l'appliquerons sur la totalité du corpus.

Etiqueteurs

Nous allons utiliser deux etiqueteurs : treetagger (consultez ce lien) et udpipe (consultez ce lien).

Sous perl, nous nous appuyerons sur le command system pour en profiter et utiliser les scripts(udpipe & treetagger) proposés par Serge Fleury pour transformer les résultats en xml.

Sous python, nous avons besoin de la bibliothèque spacy_udpipe.